文本分类任务的关键是语言表示和重要信息提取,并且有许多相关研究。近年来,文本分类中的图形神经网络(GNN)的研究逐渐出现并显示出其优势,但现有模型主要集中于直接将单词作为图形节点直接输入GNN模型,而忽略了不同级别的语义结构信息。样品。为了解决该问题,我们提出了一个新的层次图神经网络(HIEGNN),该图分别从Word级,句子级别和文档级别提取相应的信息。与几种基线方法相比,几个基准数据集的实验结果取得更好或相似的结果,这表明我们的模型能够从样品中获得更多有用的信息。
translated by 谷歌翻译
冠状动脉血管造影(CCTA)易受各种扭曲(例如伪影和噪声)的敏感,这严重损害了心血管疾病的确切诊断。适当的CCTA血管级图像质量评估(CCTA VIQA)算法可用于降低错误诊断的风险。 CCTA VIQA的首要挑战是,冠状动脉的本地部分确定最终质量是很难找到的。为了应对挑战,我们将CCTA VIQA作为多种现实学习(MIL)问题,并利用基于变压器的MIL主链(称为T-MIL),以将沿冠状动脉中心线的多个实例汇总为最终质量。但是,并非所有实例都提供最终质量的信息。有一些质量 - 欧元/负面实例介入确切的质量评估(例如,在实例中仅涵盖背景或冠状动脉的实例是无法识别的)。因此,我们提出了一个基于渐进的增强学习的实例丢弃模块(称为PRID),以逐步删除CCTA VIQA的质量 - 欧尔特尔/否定实例。基于上述两个模块,我们根据端到端优化提出了一个加强的变压器网络(RTN),用于自动CCTA VIQA。广泛的实验结果表明,我们提出的方法实现了现实世界中CCTA数据集的最新性能,超过了以前的MIL方法。
translated by 谷歌翻译
受到远见与语言之间的牢固联系的启发,我们的论文旨在探索文本中的3D人类全身动作的产生,以及其互惠任务,分别用于文本2Motion和Motion2Text, 。为了应对现有的挑战,尤其是为了使同一文本产生多个不同的动作,并避免了不良生产的琐碎的静止姿势序列,我们提出了使用运动令牌(一种离散和紧凑的运动表示)的使用。当将动作和文本信号视为运动和文本令牌时,这提供了一个级别的游戏地面。此外,我们的Motion2Text模块被整合到我们的文本2Motion训练管道的反对准过程中,在该管道中,合成文本与输入文本的显着偏差将受到较大的培训损失的惩罚;从经验上讲,这证明可以有效地提高性能。最后,通过将神经模型调整为机器翻译(NMT)的两种动作方式和文本之间的映射,可以促进。离散运动令牌上分布的这种自回归建模进一步使来自输入文本的姿势序列(可变长度)的非确定性产生。我们的方法是灵活的,可以用于Text2Motion和Motion2Text任务。在两个基准数据集上进行的经验评估证明了我们在这两个任务上的卓越性能在各种最新方法上。项目页面:https://ericguo5513.github.io/tm2t/
translated by 谷歌翻译
近年来,图像分类器的BlackBox传输攻击已被广泛研究。相比之下,对对象探测器的转移攻击取得了很小的进展。对象探测器采用图像的整体视图,并检测一个对象(或缺乏)通常取决于场景中的其他对象。这使得这种探测器本质上的上下文感知和对抗的攻击比目标图像分类器更具挑战性。在本文中,我们提出了一种新的方法来为对象检测器生成上下文感知攻击。我们表明,通过使用对象及其相关位置的共同发生和尺寸作为上下文信息,我们可以成功地生成目标的错误分类攻击,该攻击比最先进的Blackbox对象探测器上实现更高的转移成功率。我们在帕斯卡VOC和MS Coco Datasets的各种对象探测器上测试我们的方法,与其他最先进的方法相比,性能提高了高达20美元的百分点。
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
鉴于单个椅子图像,我们可以提取其3D形状并为其合理的关节和动作提供动画吗?这是一个有趣的新问题,可能有许多下游增强现实和虚拟现实应用。在本文中,我们提出了一种自动化方法来解决从单个图像,索引和动画中重建这种三维通用对象的整个过程。与以往的对象操纵的努力相比,我们的工作超出了2D操纵。此外,我们赋予了诸如椅子的其他刚体物体的合理的人类或类似动物的变形;这导致可行的物体运动方面的灵活性更大。凭经验我们的方法在公共数据集以及我们的内部数据集中令人满意地表明了令人满意的表现;与3D重建和骨架预测的相关任务相比,我们的结果通过明显的余量超越了最先进的。我们的实施和数据集将在纸张接受后公开提供。
translated by 谷歌翻译
本文提出了一种新颖的自我监督方法,可以从嘈杂的点云数据重建人类形状和姿势。依靠大量数据集与地面真实的注释,最近基于学习的方法预测点云上的每个顶点的对应关系;倒角距离通常用于最小化变形模板模型和输入点云之间的距离。然而,倒角距离对噪声和异常值非常敏感,因此可以不可靠地分配通信。为了解决这些问题,我们在高斯混合模型下从参数人模型产生的输入点云的概率分布。通过更新给定输入的模板模型的后验概率,我们通过更新模板模型的后视概率来代替明确地对准对应关系,而不是显式对准的对应关系。进一步推导出一种新颖的自我监督损失,这惩罚了变形模板和在后后概率上的输入点云之间的差异。我们的方法非常灵活,适用于完整点云和不完整的云,包括甚至是单个深度图像作为输入。与以前的自我监督方法相比,我们的方法显示了处理大量噪声和异常值的能力。在各种公共合成数据集以及非常嘈杂的真实数据集(即CMU Panoptic)上进行了广泛的实验,证明了我们对最先进的方法的方法的卓越性能。
translated by 谷歌翻译
Arbitrary-oriented object detection is a fundamental task in visual scenes involving aerial images and scene text. In this report, we present PP-YOLOE-R, an efficient anchor-free rotated object detector based on PP-YOLOE. We introduce a bag of useful tricks in PP-YOLOE-R to improve detection precision with marginal extra parameters and computational cost. As a result, PP-YOLOE-R-l and PP-YOLOE-R-x achieve 78.14 and 78.28 mAP respectively on DOTA 1.0 dataset with single-scale training and testing, which outperform almost all other rotated object detectors. With multi-scale training and testing, PP-YOLOE-R-l and PP-YOLOE-R-x further improve the detection precision to 80.02 and 80.73 mAP. In this case, PP-YOLOE-R-x surpasses all anchor-free methods and demonstrates competitive performance to state-of-the-art anchor-based two-stage models. Further, PP-YOLOE-R is deployment friendly and PP-YOLOE-R-s/m/l/x can reach 69.8/55.1/48.3/37.1 FPS respectively on RTX 2080 Ti with TensorRT and FP16-precision. Source code and pre-trained models are available at https://github.com/PaddlePaddle/PaddleDetection, which is powered by https://github.com/PaddlePaddle/Paddle.
translated by 谷歌翻译
负载预测在电力系统的分析和网格计划中至关重要。因此,我们首先提出一种基于联邦深度学习和非侵入性负载监测(NILM)的家庭负载预测方法。就我们所知,这是基于尼尔姆的家庭负载预测中有关联合学习(FL)的首次研究。在这种方法中,通过非侵入性负载监控将集成功率分解为单个设备功率,并且使用联合深度学习模型分别预测单个设备的功率。最后,将单个设备的预测功率值聚合以形成总功率预测。具体而言,通过单独预测电气设备以获得预测的功率,它可以避免由于单个设备的功率信号的强烈依赖性而造成的误差。在联邦深度学习预测模型中,具有权力数据的家主共享本地模型的参数,而不是本地电源数据,从而保证了家庭用户数据的隐私。案例结果表明,所提出的方法比直接预测整个汇总信号的传统方法提供了更好的预测效果。此外,设计和实施了各种联合学习环境中的实验,以验证该方法的有效性。
translated by 谷歌翻译